当前位置: 开发笔记 > 编程语言 > 正文

机位|成人_在成人影片里做17种姿势识别？大佬在线求助：训练集不够用！

作者：落单鸟人 | 来源：互联网 | 2023-10-13 13:33

篇首语：本文由编程笔记#小编为大家整理，主要介绍了在成人影片里做17种姿势识别？大佬在线求助：训练集不够用！相关的知识，希望对你有一定的参考价值。

点击上方“迈微AI研习社”&＃xff0c;选择“星标★”公众号

重磅干货&＃xff0c;第一时间送达

转载自&＃xff1a;新智元

后台回复“加群”进入—> CV 微信技术交流群

有大佬最近在成人影片中做姿态识别的任务&＃xff0c;发帖表示训练集不够用。立刻得到热心网友响应&＃xff1a;我赞助140TB数据&＃xff01;

兄弟们又来学技术啦&＃xff01;

今天讲的是人体动作识别&＃xff08;Human Action Recognition&＃xff09;&＃xff0c;也就是通过模型识别出图片、视频中的人体动作姿势。

最近Reddit的一个网友突发奇想&＃xff0c;如果把模型用在成人内容领域&＃xff0c;那一定可以大大增加色情视频的鉴别和搜索的准确度。

据作者称&＃xff0c;他建立的深度学习模型以图像RGB、骨架&＃xff08;Skeleton&＃xff09;和音频作为输入&＃xff0c;对视频中的演员姿势识别准确度已经可以达到75%了。

不过并非只是模型的简单迁移&＃xff0c;训练过程也遇到了一些技术上的难关&＃xff0c;主要是因为摄像机位置在视频中经常会变换。

小编根据网友的描述推测&＃xff0c;拍摄成人电影的摄像机可能是没有固定机位、或机位变换次数多&＃xff0c;而人体动作识别的模型通常应用于监控视频等有固定位置的摄像机。

作者还表示&＃xff0c;训练数据集相对较小也是一个问题&＃xff0c;他只有大约44小时的训练数据&＃xff0c;并且影片中的人物位置通常距离很近&＃xff0c;所以大多数视频很难得到准确的姿势估计&＃xff0c;也就没有办法将所有的位置纳入基于skeleton的模型中。

一个比较新奇的发现是&＃xff0c;输入流中的音频信号&＃xff0c;对于4个action的分类是有提升效果的&＃xff0c;不过也只是对某些action有用。

帖子一出&＃xff0c;也是获得了技术大咖们的一致点赞。

一切都是为了科学&＃xff01;

不过网友们也立刻明白了作者的核心诉求&＃xff1a;求资源&＃xff01;

有网友表示&＃xff0c;你要么能得到海量的资源支持&＃xff0c;或者一点也拿不到。

也有人表示他曾经也做过类似的项目&＃xff0c;他遇到的问题主要是高度嘈杂的场景和非常不稳定的摄像机。真正困难的场景是有3个以上演员参与的场景&＃xff0c;会让实体的区分会变得很困难。

并且他表示对2人以上的sex position没有概念&＃xff0c;所以看到这个模型如此容易地达到这么高的准确率&＃xff0c;感觉有点受挫&＃xff0c;想看看楼主是怎么实现的。

最慷慨的网友当场表示&＃xff0c;我愿意赞助数据集&＃xff01;视频大小140.6TB&＃xff0c;时长达到11年6个月&＃xff0c;包括6416位表演艺术家&＃xff0c;还有46.5GB的图片。

有网友跟着评论&＃xff0c;替自己搞科研的朋友同求资源。

至于这项研究有什么意义&＃xff0c;网友表示应用前景可大了&＃xff01;以后在资源网站上检索&＃xff0c;可以按照指定的position对视频进行过滤&＃xff0c;而不只是传统的标签、标题、类别等等。

正经的科学

原作者公开了源代码&＃xff0c;表示他的目的是看看最先进的人类动作识别&＃xff08;HAR&＃xff09;模型在色情领域的表现如何。

代码链接&＃xff1a;https://github.com/rlleshi/phar

HAR是深度学习领域中一个相对较新的、活跃的研究领域&＃xff0c;其目标是从各种输入流&＃xff08;如视频或传感器&＃xff09;中识别人类行为。

从技术角度看&＃xff0c;色情领域很有趣&＃xff0c;因为它有一些与众不同的难点&＃xff0c;如光线变化、遮挡以及不同摄像机角度和拍摄技术的巨大变化&＃xff08;POV、专业摄像师&＃xff09;使得位置与动作识别变得困难。两个相同的位置与动作&＃xff0c;可能存在多个不同的相机视角拍摄&＃xff0c;从而完全混淆了模型的预测。

作者收集到的数据集非常多样&＃xff0c;包括各种录音&＃xff0c;如POV、专业拍摄的、业余的、有无专门摄像人员的等等&＃xff0c;还包括各种环境、人和摄像机的角度。

作者也表示&＃xff0c;如果只使用专业团队拍摄的影片&＃xff0c;这个问题可能不会特别严重。

根据收集到的数据集&＃xff0c;作者总结了17个动作的识别&＃xff0c;如亲吻等&＃xff0c;不过动作的定义可能是不全面的&＃xff0c;也可能有概念上的重叠。

其中作者把抚触把玩&＃xff08;fondling&＃xff09;当作一个占位符&＃xff0c;没有其他动作类别检测到的时候&＃xff0c;就将其视为抚触把玩&＃xff0c;不过作者在标注数据过程中发现&＃xff0c;44小时的影片数据中只得到了48分钟的抚触把玩数据。

项目的实现基于MMAction2&＃xff0c;它是一个基于PyTorch的视频理解开源工具箱&＃xff0c;可以对人体的骨架动作进行识别等。

取得SOTA结果的模型是通过基于三个输入流的三个模型的后期集成得到的。

与只使用基于RGB的模型相比&＃xff0c;可以取得明显的性能改进。由于可能不止一个动作可能同时发&＃xff0c;并且一些动作/位置在概念上是重叠的&＃xff0c;所以评价标准以前两名的预测准确性作为性能度量。

目前多模态模型的准确率为~75%。但由于数据集相当小&＃xff0c;总共只进行了约50次实验&＃xff0c;因此有很大的改进空间。

首先介绍一下在性能和运行时间上都表现最好的多模态&＃xff08;Rgb &＃43; 骨架 &＃43; 音频&＃xff09;模型。

作者对视频RGB流使用TimeSformer&＃xff0c;对骨架流使用poseC3D&＃xff0c;以及用于音频流的resnet101。

这些模型的结果通过集成在一起&＃xff0c;因为这些模型的重要性不同&＃xff0c;所以微调后的权重是分别是0.5, 0.6和1.0

另一种方法是一次用两个输入流训练一个模型&＃xff08;即rgb&＃43;skeleton和rgb&＃43;audio&＃xff09;&＃xff0c;然后将它们的结果集成起来。

但在实际上&＃xff0c;这个操作是不可行的。

因为如果模型的输入包含音频输入流&＃xff0c;它只能对某些动作&＃xff0c;比如deepthroat由于咽喉反射导致音调比较高&＃xff0c;而对于其他动作&＃xff0c;则不可能从其音频中获得任何的有效特征&＃xff0c;从音频的角度来看&＃xff0c;他们是完全相同的。

同样&＃xff0c;基于骨架的模型只能用于那些姿势估计准确度高于某个置信度阈值的情况&＃xff08;对于这些实验&＃xff0c;所用的阈值是0.4&＃xff09;。

例如&＃xff0c;对于scoop-up或the-snake等高难度稀有动作&＃xff0c;由于画面中人体位置比较接近&＃xff0c;在大多数相机角度下很难得到准确的姿势估计&＃xff08;姿势变得模糊&＃xff0c;混合在了一起&＃xff09;&＃xff0c;会对HAR模型的准确性产生了负面的影响。

对于诸如 doggy, cowgirl或missionary等普通动作来说&＃xff0c;姿势估计的效果都不错&＃xff0c;可以用于训练一个HAR模型。

如果我们有一个更大的数据集&＃xff0c;那么我们可能会有足够多的难分类姿势的实例&＃xff0c;再用基于骨架的模型训练所有的17个动作。

根据目前的SOTA文献&＃xff0c;基于骨架的模型优于基于RGB的模型。当然&＃xff0c;理想情况下&＃xff0c;姿势估计模型也应该在sex domain中进行微调&＃xff0c;以获得更好的整体姿势估计。

对于RGB输入流&＃xff0c;基于注意力的TimeSformer架构实现了3D RGB模型的最佳结果&＃xff0c;推理速度也非常快&＃xff08;~0.53s/7s clips&＃xff09;。

RGB模式总共有~1.76万个训练片段和~4900个评价片段&＃xff0c;并应用了各种数据增强技术&＃xff0c;如重新缩放、裁剪、翻转、颜色反转、高斯模糊、弹性变换、仿生变换等。

基于骨架模型的最佳结果是由基于CNN的PoseC3D架构实现的&＃xff0c;模型的推理速度也很快&＃xff08;~3.3s/7s clips&＃xff09;。

姿势数据集比原始的RGB数据集要小得多&＃xff0c;只有33%的帧的置信度高于0.4&＃xff0c;所以最终测试集只有815个片段&＃xff0c;且目标类别仅为6个。

基于语音的模型使用了一个简单的ResNet 101,jiyu Audiovisual SlowFast&＃xff0c;推理速度非常快&＃xff08;0.05s/7s clips&＃xff09;。

对语音的预处理为从数据集中剪掉不够响亮的音频。通过修剪最安静的20%的音频&＃xff0c;取得了最佳效果。总共有大约5.9万个训练片段和1.5万个验证片段。

参考资料&＃xff1a;

https://www.reddit.com/r/MachineLearning/comments/va0p9u/p_r_deep_learning_classifier_for_sex_positions/

后台回复“加群”进入—> CV 微信技术交流群&＃xff0c;公众号主页可以看到分类专栏

绘图神器下载

后台回复&＃xff1a;绘图神器&＃xff0c;即可下载绘制神经网络结构的神器&＃xff01; PyTorch 学习资料下载后台回复&＃xff1a;PyTorch资料&＃xff0c;即可下载访问最全的PyTorch入门和实战资料&＃xff01; 专栏推荐下载专栏订阅&＃xff1a;https://blog.csdn.net/charmve/category_10595130.html

迈微AI学术交流群&＃xff08;知识星球&＃xff09;来了&＃xff01;想要了解最新最快最好的CV/DL/ML论

文速递、优质开源项目、学习教程和实战训练等资料&＃xff0c;欢迎扫描下方二维码&＃xff0c;

加入CVer学术交流群&＃xff0c;已汇集数千人&＃xff01;

▲扫码进群

迈微AI研习社

微信号: MaiweiE_com

GitHub: &＃64;Charmve

CSDN、知乎: &＃64;Charmve

投稿: yidazhang1&＃64;gmail.com

主页: github.com/Charmve

推荐阅读

ip
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
ip
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
ip
手把手教你使用GraphPad Prism和Excel绘制回归分析结果的森林图

本文介绍了使用GraphPad Prism和Excel绘制回归分析结果的森林图的方法。通过展示森林图，可以更加直观地将回归分析结果可视化。GraphPad Prism是一款专门为医学专业人士设计的绘图软件，同时也兼顾统计分析的功能，操作便捷，可以帮助科研人员轻松绘制出高质量的专业图形。文章以一篇发表在JACC杂志上的研究为例，利用其中的多因素回归分析结果来绘制森林图。通过本文的指导，读者可以学会如何使用GraphPad Prism和Excel绘制回归分析结果的森林图。 ... [详细]

蜡笔小新 2023-12-10 18:32:57
post
像跟踪分布式服务调用那样跟踪Go函数调用链 | Gopher Daily (2020.12.07) ʕ◔ϖ◔ʔ

每日一谚：“Acacheisjustamemoryleakyouhaven’tmetyet.”—Mr.RogersGo技术专栏“改善Go语⾔编程质量的50个有效实践” ... [详细]

蜡笔小新 2023-10-17 19:23:45
ip
Android跨进程通信IPC之9——Binder通信机制

移步系列Android跨进程通信IPC系列1Android整体架构Android系统架构及系统源码目录Android系统架构 ... [详细]

蜡笔小新 2023-10-16 19:18:54
include
VScode格式化文档换行或不换行的设置方法

本文介绍了在VScode中设置格式化文档换行或不换行的方法，包括使用插件和修改settings.json文件的内容。详细步骤为：找到settings.json文件，将其中的代码替换为指定的代码。 ... [详细]

蜡笔小新 2023-12-14 17:15:38
ip
Android 新闻App的本地服务器搭建教程

本文介绍了在开发Android新闻App时，搭建本地服务器的步骤。通过使用XAMPP软件，可以一键式搭建起开发环境，包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表，并设置相应的属性。最后，给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]

蜡笔小新 2023-12-14 17:15:19
ip
Nginx使用（server参数配置）

本文介绍了Nginx的使用，重点讲解了server参数配置，包括端口号、主机名、根目录等内容。同时，还介绍了Nginx的反向代理功能。 ... [详细]

蜡笔小新 2023-12-14 17:08:34
ip
小程序自动授权和手动接入的方式及操作步骤

本文介绍了小程序支持的两种接入方式：自动授权和手动接入，并详细说明了它们的操作步骤。同时还介绍了如何在两种方式之间切换，以及手动接入后如何下载代码包和提交审核。 ... [详细]

蜡笔小新 2023-12-11 18:21:09
cmd
Python实验报告文档中的文件和数据格式化操作

本文介绍了Python语言程序设计中文件和数据格式化的操作，包括使用np.savetext保存文本文件，对文本文件和二进制文件进行统一的操作步骤，以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]

蜡笔小新 2023-12-10 17:02:16
ip
建立分类感知器二元模型对样本数据进行分类

本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型，使用最小二乘、Logistic回归等方法进行建模，考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数，使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]

蜡笔小新 2023-12-09 10:22:15
io
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
ip
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
io
老牌医药收割AI红利：先投个15亿美元抢中国人才

萧箫发自凹非寺量子位报道|公众号QbitAI没想到，一场大会把我的“刻板印象”攻破了。2021世界人工智能大会现场，能看见不少熟悉的身影， ... [详细]

蜡笔小新 2023-10-17 17:40:25
audio
linux系统安装nas,linux 安装nas

1. Makesureyouhaveimake.(SeetheBUILDNOTESfileifyouwanttotrybuildingwi ... [详细]

蜡笔小新 2023-10-13 19:45:03

落单鸟人

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章